GPT-4没通过图灵测试!60年前老AI击败了ChatGPT?
(图片来源:网络)
GPT-4没法过图灵测试这道坎!UCSD的团队研究发现,60年前的人工智能就已经在测试里把ChatGPT给打败了,更有意思的是,人类在测试里的胜率也就63%。
文 | caron
编辑 | caron
长久以来,【图灵测试】一直被视为判断计算机是否具备智能的核心标准。
上世纪60年代,曾由麻省理工团队开发了史上第一个基于规则的聊天机器人ELIZA,在这场测试中失败了。
时间快进到现在,地表最强的ChatGPT不仅能作图、写代码,还能胜任多复杂任务。然而,ChatGPT却在最近一次测试中,败给了这个有近60年历史的聊天机器人ELIZA。来自UCSD的2位研究人员在一篇题为《GPT-4可以通过图灵测试吗》的研究中,证明了这一发现。
令人惊讶的是,在此次测试中ELIZA取得了相对较好的成绩, 成功率达到了27%。而GPT-3.5根据不同的提示,成功率最高只有14%,低于ELIZA。GPT-4取得了41%的成功率,仅次于人类得分(63%)。
测试过程
根据加州大学圣地亚哥分校人类研究伦理委员会(IRB)的批准,本实验在turingtest.live网站上开展,旨在招募参与者并安排他们与另一个人类或一个人工智能进行测试。为了确保公正性,测试的等待时间被设置为过去5次人类匹配的平均等待时间,以防止参与者通过匹配时间来推断测试对象是AI还是人类。如果在45 + N(1, 7)秒的超时后没有找到人类匹配,参与者将与人工智能进行匹配。在人类对战中,两名参与者被随机分配为审问者和见证者角色。
(聊天过程截图)
结果表明
GPT-4胜率接近人类
研究人员将审问员判定证人为人类的游戏比例定义为成功率(SR)。研究结果表明,人类证人表现最佳,成功率达到63%。表现最好的GPT-4提示(Sierra)的SR为41%,其他几个GPT-4提示的表现也相近。然而,不同提示语的表现差异较大。AI21作为基准提示,SR为19%,而最差的GPT-4提示语(Fox-trot)SR仅为6%。GPT-3.5的表现成功率介于5%(Victor)到14%(Juliet)之间。GPT-4在这些提示上系统性地优于GPT-3.5(Victor:19%,Juliet:26%)。最后,ELIZA作为基于规则的基准模型(Weizenbaum,1966年),成功率达到27%,优于所有的GPT-3.5证人和几个GPT-4提示。
研究人员还测试了,已知影响人机交互的人口统计学因素,包括年龄、性别和受教育程度是否能预测调查员的辨别能力。另外,研究还分析了一些其他特征的影响,例如频繁程度的和聊天机器人的互动,以及对语言模型的了解程度。实验结果显示,以上所有的这些个人特征都不能解释不同审问者在图灵测试中的表现差异。其次,研究人员假设任务经验会提高参与者的表现。然而,结果没有发现任何证据表明体验者有学习效应。
判断原因
当参与者为他们的结论说明原因后,原因被划分为6个高级别类别:语言风格、社交与情感、知识与内容、情境意识、元(交流模型外的方面)、和无信息性(模糊或无关的原因)。
(人工智能的前20个最常见原因)
最频繁的原因是语言方面的(例如模型过于非正式、过度使用让人物形象显得勉强的特征,或使用重复的句子结构)和社交情感方面的(例如模型缺乏个性——乏味且通用——或产生不自然的回应。关于人类见证者的人工智能判定的原因相对较少(31个),因此很难比较不同见证者类型之间原因的相对频率。
GPT-4是否通过图灵测试?
显然,GPT-4并没有通过图灵测试。研究者表示,「GPT-4不符合图灵测试的成功标准,既没有达到 50% 的成功率,也没有超过人类参与者的成功率」。
研究者指出,尽管GPT-4在理解自然语言方面表现出色,但它并不符合图灵测试的成功标准。具体而言,GPT-4在理解复杂语言任务和生成回复方面的表现尚未达到50%的成功率,也没有超越人类参与者的表现水平。这一结论的论据在于,尽管GPT-4能够理解自然语言并生成相应的回复,但它的回复思路并不总是清晰、精确。因此,GPT-4在某些方面仍然存在提升空间
给到正确的提示设计,GPT-4或类似模型最终可能会通过图灵测试。
当前面临的挑战在于如何巧妙地设计提示语,以实现模仿人类对话风格的微妙性。另外,研究者还表示,实验结果可能没有完全准确地反映人类智能和AI系统之间的差异。人类的表现被低估了,AI系统的表现被高估了。
实验结果出现偏差的原因主要源于测试本身的结构以及评委的判定标准,而非人类或AI系统智能水平方面的差异。最近,来自AI21 Labs的研究人员在图灵测试研究中发现,人类在正确识别其他人类方面的准确率约为73%。这表明,之前的研究结果可能高估了人类判断对方是否为人类的能力,由此产生了近30%的错误率。这种错误率可能会引发一定的问题,特别是在未来,如果AI技术被用于模拟人类言行以欺骗他人。因此,我们必须保持谨慎,避免对人类识别能力的过高估计,以确保测试结果的准确性。
为什么ELIZA会打败ChatGPT
研究的结果的另一个引人注目的特点是ELIZA的成功率相当之高,甚至超过了GPT-4。ELIZA使用模式匹配和替换的组合来生成模板响应,并穿插使用一些用户输入的内容。研究人员发现,ELIZA在27%的交流中成功地欺骗了人类审问者,表现优于几个GPT-4见证者和所有GPT-3.5见证者。
研究人员分析了认定ELIZA是人类的原因,得出了一些非常有意思的结论:
1、ELIZA的回应通常表现出保守的态度,这可能会给人留下不合作的印象,但从另一方面来看,这种回应方式可以避免系统提供不准确或不清晰的信息作为明确线索。
2、ELIZA并没有展现出审问者所认为的AI可能具备的特性,例如乐于助人、友好以及给出冗长的回复。
3、有审问者认为ELIZA的回应质量“太差”,以至于他们认为它不可能是当前的人工智能模型,因此他们更愿意相信这是一个故意表现出不合作态度的人类。
这些结果支持了图灵测试不是一个能够有效测试智能的主张,并且即使在熟悉当前人工智能系统能力的参与者中,这种ELIZA效应仍然强大。表明了审问者决策中的高阶推理,以及关于人工智能能力和人类特性的先入为主的观念可能会扭曲判断。
猜您喜欢
01
12-2023
门店也能数字化?Lululemon用持续增长的数据式告诉你什么是直销业务模式
28
11-2023
中国零售快消巨头为何会选择全方位数智化转型升级?
25
11-2023
AI发展快如浪潮,2024赋能领域改如何续写未来蓝图?快来看这五大趋势将指引你更好方向
长按扫码添加“安安”立即加入
添加请备注:公司+职务